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摘要 : [目的 /意义 ] 随 着 以 ChatGPT 为 代表 大 语言 模型 技术 的 不 断 发 展 与 变革 ， 使 得 许多 领域 的 经 典 场景 都 重新 
焕发 出 新 的 机 会 。 同 时 ， 越 来 越 多 的 学 者 开始 关注 如 何 将 大 语言 模型 的 智能 化 能 力 与 技术 应 用 到 现 有 的 场景 ， 并 
分 析 这 些 技术 带 来 的 挑战 和 机 3 遇 。 [方法 /过 程 ] 本 文 以 ChatGPT 为 建 模 对 象 ， 首 次 将 大 语言 模型 技术 引入 用 户 图 
书评 分 偏好 预测 这 一 图 情 领域 的 典型 应 用 场景 ， 并 落地 实践 。 通 过 构建 基于 ChatGPT 的 用 户 图 书评 分 预测 模型 
(CUBR, ChatGPT-based model for User Book Rating Prediction ) ， 来 探索 大 语言 模型 技术 在 图 书 推荐 领域 实践 和 落 
地 的 可 行 人 性。 同时， 本 文 基于 图 书评 分 任务 的 不 同 评估 方案 与 现 有 经 典 推荐 模型 进行 对 比 ， 探 讨 并 给 出 了 CUBR 
在 用 户 图 书评 分 预测 场景 的 优势 与 劣势 ， 并 分 析 了 后 续 大 语言 模型 在 图 书 推荐 其 他 场景 可 能 的 研究 机 会 点 。[ 结 
果 / 结 论 ] 本 文 实验 研究 表明 : 〈1) CUBR 模型 在 现 有 用 户 图 书评 分 偏好 预测 任务 上 能 够 取得 不 错 的 推荐 效果 ， 特 

别 是 单 样本 (One-shot) 这 类 待 推荐 目标 信息 较 少 的 情况 下 ， 其 表现 接近 或 超过 当前 经 典 推 荐 算法 ， 且 泛 化 能 力 较 
强 ， 较 适用 于 冷 局 动 推 荐 场景 。(2) 随 着 单个 用 户 提示 样本 内 容 的 增加 《〈 如 从 One-shot 到 Ten-shot)，CUBR 的 预 
估 效 果 会 有 显著 的 提升 ， 说 明 CUBR 具备 不 错 的 实时 上 下 文学 习 能 力 。[ 局 限 ] 本 文 研究 场景 仅 限于 用 户 图 书评 分 
偏好 理解 与 推荐 ， 未 来 将 尝试 在 更 多 的 图 情场 景 应 用 和 改造 现 有 大 语言 模型 技术 ， 并 获得 更 好 的 实践 效果 。 
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Abstract: [Purpose/significance] With the continuous development and change of Large Language Models (LLMs) repre- 
sented by ChatGPT, classical scenarios in many fields have been given new opportunities. At the same time, more and more 
researchers begin to focus on how to apply the intelligentness and technology of LLMs to existing scenarios, and analyze the 
challenges and opportunities brought by these technologies. [Method/process] This is the first time that LLM technology 
has been introduced into user book rating prediction, which is a typical application scenario in library and information sci- 
ence. We explored the feasibility of using LLM technology in user book rating by building a CUBR (ChatGPT-based model 
for User Book Rating Prediction) model based on ChatGPT. At the same time, this paper compares different evaluation 
schemes based on book rating task with existing classical recommendation models, discusses and gives the advantages and 
disadvantages of CUBR in predicting scenarios of user book scoring, and analyses the possible application opportunities 
of subsequent LLMs in other scenarios of book recommendation. [Result/conclusion] The experimental research in this 
paper shows that: (1) CUBR model can achieve good recommendation results on existing user book rating prediction tasks, 
especially when the target information to be recommended is less, such as one-shot, which performs close to or exceeds 
the current classical recommendation algorithm, and has strong generalization ability, which is suitable for cold-start rec- 
ommendation. (2) With the increase of sample content prompted by a single user (e.g. from One-shot to Ten-shot), the 
predictive effect of CUBR will be significantly improved, indicating that CUBR has good real-time in-context learning 
ability. [Limitations] The scenarios studied in this paper are limited to the understanding and recommendation of users” 
book scoring preferences. In the future, we will try to apply and transform the existing large language model technology in 
more library and information science scenarios, and achieve better landing effects. 
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1 引言 


近年 来 ， 随 着 自然 语言 处 理 
模 ， 还 是 从 训练 数据 的 


时 还 能 够 进行 包括 辅助 代码 编写 、 
界 和 学 术 界 引起 了 热烈 的 讨论 。 


技术 (NLP，Natural Language Processing) 的 


FE 富 程度 来 看 ，NLP 技术 都 发 生 着 日 新 
于 GPT-3.5 系列 大 语言 模型 上 〈 大 语言 模型 , Large Language Models) 构建 并 微 
(Chat Generative Pre-trained Transformer ) 。 


文档 摘要 、 小 说 续 写 等 各 类 


该 模型 不 仅 能 够 针对 


月 异 的 变化 。2022 年 12 
周 后 的 双 


飞速 发 展 ， 


无 论 是 从 模型 参数 的 规 
月 初 ，OpenAI 的 发 布 了 基 
几 器 人 ChatGPT 品 


-经 推出 ， 随 机 在 产业 


进行 高 效 且 精准 的 交互 式 回答 ， 同 
然 语 言 处 理 任务 。 该 模型 
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百度 指数 关键 词 搜索 次 数 


如 图 1 所 示 ， 为 ChatGPT 从 2022 年 12 月 初 发 布 至 今 的 百度 搜索 指数 变化 趋势 图 本 
以 看 到 , 在 发 布 的 初期 阶段 (2022 年 11 月 -2023 锯 


图 1 中 可 


的 整体 热度 保持 在 相对 低位 的 状态 。2 月 开 
通过 谷歌 工程 师 面 试 加 、 各 个 大 型 互联 网 公司 的 广泛 参与 ， 以 ChatGPT 所 包含 的 技术 底座 ; 


2022 年 12 月 15 号 ---， 
OpenAl 对 ChatGPT 进 行 第 一 次 更 新 ， 提 


升 性 能 表现 、 多 许 保存 和 查看 历史 记 
录 ， 每 日 体验 次 数 等 


2022 年 11 月 30 号 -- 
ChatGPT 正 式 发 布 


1 ChatGPT 第 三 次 更 新 ， 提 升 模型 生 
| 成 结果 的 真实 性 和 数学 计算 能 力 


! 2023 年 01 月 03 号 1 
! ChatGPT 被 ICML 国 际会 议 、 多 地 学 校 | | 
上 和 互联 网 公司 “ 寺 杀 ” 上 


2023 年 02 月 03 号 --: 


| 接 入 ChatGPT 的 微软 Bing 搜 索引 擎 上 线 | 
1 


2023 年 01 月 30 号 --，| 


~--、 2023 年 02 月 08 号 
第 一 轮 热度 高 峰 : ChatGPT 开 始 被 各 个 行业 广泛 试用 和 讨论 ， 
OpenAl 网 站 访问 热度 迅速 上 升 。 

一 百度 宣布 将 推出 “ 文 心 一 言 ” 

一 阿里 达 摩 院 宣布 将 结合 钉 钉 推出 聊天 机 器 人 

- 网 易 有 道 宣 布 将 AIGC 融 入 教育 场景 


2023 年 02 月 以 后 

讨论 与 研究 持续 发 醇 ， 并 保持 较 高 热度 ， 京 东 、 科 大 讯 
飞 、 字 节 跳 动 等 互联 网 公司 持 绩 入 场 。 

百度 ChatGPT 搜 索 指数 ， 日 均 搜索 量 9 万 + 


| 
Jan Feb 


时 间 分 布 区 间 : 2022 年 11 月 -2023 年 4 月 


图 1 ChatGPT 百度 搜索 指数 趋势 图 与 典型 的 重要 事件 


受到 了 学 术 界 的 极 大 关注 癌 。 


当 育 前 


j 流 行 的 LLM 模型 版 本 3 


系列 模型 


探讨 的 。 


之 上 


双 理 与 风险 研究 0 中 与 应 


要 包括 GPT3/4 系列 模型 


ChatGPT 落地 到 实际 的 应 用 上 


或 的 各 类 推荐 问题 ? ChatGPT 类 模型 


大 语言 类 模型 
能 性 。(2) 基于 用 户 图 书评 分 人 
带 来 一 定 的 启发 。(3) 基于 单 样 
了 基于 ChatGPT 类 大 语言 模型 应 


年 2 月 )， 


的 重要 事件 标注 。 从 


于 模型 的 效果 和 用 
始 , 随 着 OpenAI 对 模型 的 迭代 ， 以 及 若干 重要 事件 


面 的 不 完 计 


，ChatGPT 


日 趋 增 长 | 


本 文 的 创新 点 主要 体现 在 以 下 方 男 
(如 ChatGPT) 来 构建 相应 的 预测 模型 ， 
好 任务 ， 设 计 了 对 应 预测 建 模 所 需 的 提示 工程 范例 ， 给 类 


2 相关 研究 


随 着 馆藏 资源 的 不 断 发 展 ， 无 论 是 图 书 数量 、 
此 图 书馆 的 服务 形式 也 不 断 朝 着 智慧 化 的 方向 发 展 
一 。 其 中 ， 面 向 读者 的 图 


包括 : 


基于 读者 (User) - 


国 绕 从 理 


PT 类 模型 构建 


: (1) 本 文 针 对 图 情 领 域 的 典型 任务 一 一 
以 此 探索 ChatGPT 类 模型 在 图 情 领 域 落地 和 应 用 的 可 
似 场 景 的 相关 落地 研究 


的 报道 , 如 ChatGPT 
大 语言 模型 模型 ， 也 


.LLaMA 模型 口 , 以 及 国内 清华 大 学 推出 的 GLM130B 
模型 所 等 等 。 其 中 ， 依 赖 于 微软 以 及 OpenAI 的 大 力 推广 与 宣传 ， 且 支持 API 的 进行 模型 1 
4 ChatGPT 应 用 被 越 来 越 多 的 研究 TY 者 和 厂商 接 入 和 使 用 在 各 类 现实 场景 。 
译 国 、 私人 助手 D] 等 等 。 

特 别 的 ， 在 图 情 领 域 ， 围 绕 ChatGPT 类 模型 的 理论 研究 也 
场景 研究 U7 眉 等 等 。 但 上 述 的 研究 主 
进行 测试 ， 例 如 是 否 能 考虑 基于 ChatG 
点 用 到 对 应 的 推荐 场景 之 后 相 比 


,构建 于 GPT3/3.5/4 


服 趾 、 交 互 翻 


。 如 ChatGPT 类 模型 在 图 情 领域 的 技术 
从 探讨 到 应 用 场景 的 分 析 ， 并 未 将 
E 荐 模型 来 解决 原 有 图 情 领 
传统 的 推荐 模型 效果 怎么 样 ? 都 是 非常 值得 


用 户 图 


;评分 仿 好 预测 任务 ， 应 


偏 置 ， 结 合 偏 置 本 身 的 含义 和 相似 图 书 对 预测 评分 的 贡献 ， 来 改善 
等 中 则 除了 考虑 图 书 内 容 本 身 的 相 
督 方法 来 融合 相似 性 度量 ， 以 此 优化 推荐 效果 。 
书 交 互 行为 序列 推荐 模型 ， 从 单个 用 户 角 度 上 看 ， 
该 类 模型 主要 解决 的 是 下 一 (多 ) 次 时 间 
出 一 种 基于 图 书目 录 注 意 力 机 制 的 个 性 化 推荐 模型 ， 借 助 用 


基于 


等 里 提 


读者 -图 
够 形成 对 应 的 图 书 序列 ， 


图 书 (item) 


而 推荐 模型 正 


的 协同 过 渡 推 荐 模型 ， 如 余 以 胜 等 09， 


还 是 与 读者 的 交互 情况 ， 都 呈现 
是 解决 这 一 信 
> E 荐 模型 实现 ， 


以 性 之 外 ， 进 一 步 引入 用 户 的 社交 关系 层 


le 天 


本 和 少 样本 建 横 ， 并 在 GoodBook 数据 集 上 进行 实验 ， 通 过 不 同 的 实验 指标 论证 
昌 于 用 户 图 书评 分 偏好 预 估 场 景 的 可 行 性 。 


息 过 载 j 


， 并 基本 


与 图 书 的 系列 交互 行 关 


可 能 交互 对 象 的 推荐 


户 评分 和 注意 力 机 制 ， 


重要 手段 与 方法 2 


是 方向 的 部 分 研究 


通过 在 基于 物品 协同 过 滤 模 型 中 引入 
如 书 推荐 系统 中 的 可 解释 性 
而 的 相似 


与 准确 性 。 而 杨 辰 


局 发 式 的 非 监 


随 着 时 间 的 变化 能 


例如 ， 王 代 琳 


用 户 的 历史 浏览 交 
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互 行为 进行 建 模 ， 基 于 BiLSTM 融入 读者 的 兴趣 偏好 ， 以 此 提高 推荐 的 准确 性 ， 但 不 足 之 处 在 于 该 模型 表现 强 依 


赖 于 稠密 的 读者 行为 矩阵 ， 在 稀 玻 场景 下 效果 受 限 。 
基于 读者 -图 书 网 络 的 图 神经 网 络 推荐 模型 。 受 益 于 图 模型 的 特征 表达 与 高 阶 抽取 能 力 ， 图 神经 网 络 已 被 广泛 


的 应 用 于 推荐 系统 的 各 个 方向 。 如 陈 帜 等 上 基于 图 卷 积 神经 网 络 对 读者 -图 书 二 部 图 构建 的 交互 历史 进行 建 模 ， 
捕捉 节点 之 间 的 高 阶 连通 性 来 更 好 的 建 模 读者 的 领域 偏好 信息 ， 提 高 推荐 效果 。 


3 基于 ChatGPT 类 的 用 户 图 书评 分 偏好 预 估 模型 
属性 特征 抽取 与 格式 化 自然 语言 表达 Prompt 工 程 构建 


， User1 是 数学 专业 女性 ，Book3 评 分 3 分 | 
1 ”User2 是 物理 专业 男性 ，Book3 评 分 5 分 ， 
! ”User2 是 物理 专业 男性 ，Book2 评 分 {分 


3.1 


1- Shot Recommendation | 
10/20 - Shot Recommendation 四 


国 尖 和 采样 本 RN i 
| | | 输出 校 验 


让 请 之 搬 杏 四 
站 第 酒 凡 六 市 


| 任务 重启 
: | | | (小 于 最 大 重 试 次 数 ) 
user1 QQ 一 ， 应 用 | | | 规则 模版 匹配 | 


Usern 全 ! | 
J " : : | | 符合 规则 模版 不 符合 规则 模版 
图 2 用 户 图 书评 分 偏好 预 估 模 型 框架 


模型 概述 
本 文 提出 了 一 种 基于 ChatGPT 类 的 大 语言 模型 的 用 户 图 书评 分 偏好 预 估 模 型 ， 该 模型 通过 将 现 有 的 大 语言 


模型 与 用 户 评分 偏好 预 估 任 务 相 结合 ， 构 造 合 适 的 Prompt 策略 ， 并 结合 数据 校 验 、 回 渊 与 重 试 方法 ， 最 终 探 索 
LLM 在 用 户 图 书评 分 偏好 预 估 场景 应 用 的 可 能 性 。 模 型 整体 分 为 四 个 模块 :1) 任务 形式 化 定义 。(2) 任务 提示 


工程 设计 (Prompt Engineering)。(3) 模型 交互 与 响应 解析 与 校 验 。(4) 任务 指标 评估 。 


3.2 ”任务 形式 化 定义 
用 户 评分 偏好 预测 是 根据 用 户 与 图 书 的 历史 交互 或 评分 行为 ， 对 用 户 未 来 时 刻 可 能 与 其 他 图 书 产生 交互 的 偏 


好 进行 预 估 。 该 任务 在 图 书 推荐 领域 应 用 场景 非常 广泛 ， 例 如 ， 面 向 电 商 销售 场景 的 用 户 图 书 偏好 预 佑 


再 问 氏 


书馆 读者 图 书 借阅 、 点 击 、 浏 览 兴趣 偏好 预 估 推荐 等 。 该 任务 通常 以 读者 与 图 书 的 历史 交互 (点 击 、 浏 览 、 借 阅 、 
收藏 、 评 论 、 打 分 等 ) 作为 特征 与 数据 来 源 ， 结 合用 户 基础 属性 与 图 书 属性 等 ， 利 用 多 种 机 器 学 习 模 型 来 构建 精 


准 的 推荐 。 本 文中 ， 有 基体 任务 定义 如 下 : 


用 户 单 样本 推荐 建 模 : 给 定 用 户 wi 的 历史 图 书 行为 样本 序列 《如 评分 序列 ): 五 = {51,b2,…, bn}， 仅 给 模 


型 提供 单个 训练 样本 作为 提示 或 训练 集 ， 要 求 模 型 对 行为 序列 中 的 剩余 全 部 样本 进行 偏好 打分 ， 最 终 评 估 模 型 打 


分 结果 与 原始 样本 结果 的 一 致 性 。 


用 户 少 样本 推荐 建 模 : 给 定 用 户 wi 的 历史 图 书 行为 序列 (如 评分 序列 )，H = {01,0b2,…, bn}， 从 中 选 出 一 


定 比例 的 数据 作为 训练 集 ( 本 文中 将 分 别 选取 10 个 、20 个 提示 样 例 作 为 提示 集 〉( 或 Prompt 提示 集 )， 要 求 模型 


对 下 


3.3 


I 余 的 序列 进行 偏好 打分 ， 最 终 评估 模型 打分 结果 与 原始 样本 结果 的 一 任性 。 
任务 提示 工程 设计 
于 ChatGPT 类 大 语言 模型 是 一 种 典型 的 生成 式 模型 ， 其 生成 内 容 的 质量 好 坏 通 常 取决 于 输入 提示 内 容 


(Prompt Content〉 的 质量 ， 因 此 如 何 针对 图 书 推荐 任务 构建 有 效 的 提示 工程 (Prompt Engineering)C1 是 本 小 节 的 


讨论 核心 。 如 图 3 所 示 ， 为 用 户 图 书评 分 偏好 预 估 任 务 Prompt 工程 样 例 ， 通 常 包括 四 个 核心 部 分 


(1) 身份 注入 提示 。 该 提示 主要 用 以 提示 LLM 当前 所 代表 的 角色 类 型 ， 引 导 LLM 按照 特定 的 角色 类 型 去 作 


出 不 同 的 行为 响应 。 例 如 ， 在 某 些 特定 任务 中 ， 出 于 安全 或 公平 性 的 限制 ， 如 果 不 进行 身份 注入 提示 “假设 你 是 


一 个 xxx 职业 的 专家 ”， 而 是 直接 要 求 ChatGPT 进行 回答 例如 :“ 请 对 《xxx》 评 分 偏好 进行 评估 ”的 任务 要 求 ， 


ChatGPT 通常 会 发 出 拒绝 回答 的 响应 。 


LLM 当前 所 需要 完成 的 具体 任务 背景 、 任 务 框 架 、 以 及 可 能 的 任务 样 例 (Few-shot 场景 )。 通 常情 况 下 ， 基 于 任 


(2) 任务 描述 提示 。 如 果 说 身份 注入 提示 是 为 ChatGPT 类 模型 设 定 可 能 的 行为 簇 ， 而 任务 描述 提示 则 是 提示 


务 样 例 Few-shot 场景 ) 的 内 容 提示 ， 相 当 于 给 模型 增加 了 一 定 的 学 习 样本 ， 能 够 进一步 增强 模型 对 任务 的 拟 合 
与 理解 效果 ， 从 而 最 终 产 出 更 好 的 预测 结果 。 
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(3) 任务 边界 提示 。 上 述 提 示 工 程 主要 
是 用 以 从 负面 限定 模型 ， 不 
应 的 评分 以 及 大 段 的 解释 性 语言 ， 这 会 给 
界 是 什么 ， 即 : 不 需要 任 

(4) 输出 格式 提示 。 在 完成 角 
据 格式 。 这 一 部 分 是 为 了 方便 将 模型 的 产 出 结 
限定 产 出 格式 为 : 保留 2 
3.4 ”模型 交互 与 响应 解析 与 校 验 
通过 提示 工程 的 构建 ， 我 们 能 够 在 一 定 程度 上 保障 模型 的 输出 符合 预 
是 一 种 自然 语言 概率 模型 ， 同 时 ， 为 了 保障 模 列 
相同 的 输入 请 求 ， 产 晶 
E 启 ”模块 ， 对 关键 的 产 


球 最 大 的 在 线 读 


可 文字 解释 ， 只 需 输 | 


任务 链 路 更 好 


这 也 可 能 使 得 模型 对 二 
需要 进一步 构建 “ 输 ! 
4 实验 评估 
4.1 数据 集 

Goodbook-10k 数据 集 。 GoodBook-10KkPE21 数据 外 


8 结果 校 验 与 任务 本 


来 源 于 Goodreads:! 书记 


任务 规则 描述 


假设 你 是 一 个 专业 的 用 户 兴趣 推荐 专家 ， 需 要 你 对 用 户 X 的 书籍 人 
好 进行 评分 ， 评 分 范围 在 1-5 分 ，1 表 示 用 户 A 不 喜欢 该 书籍 ，5 表 示 
用 户 A 非 常 喜欢 该 书籍 。 已 知 用 户 A 自 己 对 部 分 书籍 评分 结果 : 

由 作者 Audrey 写 的 《The Time Travelers Wife》 ， 评 分 : 4.00 
由 作者 Andy Weir 写 的 《The Martian》 
由 作者 Neal Stephenson 写 的 《Seveneves》 ， 评 分 : 
请 对 以 下 书籍 进行 评分 ， 预 测 出 用 户 对 这 些 书 籍 的 喜好 。 
由 作者 Orson Scott Card 写 的 《Xenocide》 
由 作者 Christopher Paolini 写 的 《Eragon》 At- 多 篇 进行 打分 
无 需 其 他 任何 文字 说 明 、 解 释 ， 每 行 仅 输出 数字 打分 结果 ， 每 个 评 
分 保留 两 位 小 数 ”< 推荐 输出 标准 化 定义 


图 3 用 户 图 书评 分 偏好 预 估 任 务 Prompt 工程 样 例 


FE 向 告知 ChatGPT 类 模型 需要 做 什么 任务 ，i 
果 仅 使 用 了 身份 注入 以 及 人 


F 务 描述 ， 模 型 通常 会 产 


难 。 因 此 ， 还 需要 明确 的 限定 
评分 结果 。 此 时 ， 模 型 则 会 按照 要 求 仅 产 出 对 应 的 评估 分 值 。 
F 务 描述 以 及 边界 提示 之 后 ， 还 需要 最 终 告 诉 
的 结合 。 如 ， 针 对 月 


， 评 分 : 1.00 N-FewShot 


待 打 分 书籍 列表 ， 同 时 对 


I 任务 边界 提示 则 主 


模型 ， 所 需要 产 出 和 


上 户 偏好 评分 任务 ， 需 要 


社区 。GoodBook-10k 数据 集中 包含 有 1 万 本 热门 图 书 与 $98 万 


进行 预测 ， 


4.2 ”对 比 模型 

为 了 有 效 测试 本 文 提出 模型 与 现 有 推荐 模型 在 用 广 
性 化 推荐 场景 的 三 个 
SlopeOneD 模型 。 


段 包 括 ， 图 


的 表现 ， 我 们 将 该 数据 集 拆 分 为 -Few-shot、 
户 的 1 条 、 


的 偏好 排序 。 数 据 集 让 


期 的 要 求 。 但 1 


EF 网 站 类似 豆 六 


El 
LI 


告诉 模型 ， 该 任务 的 边 


于 ChatGPT 类 模型 本 质 


生成 结果 的 多 样 性 ， 模 型 在 设计 的 过 程 中 便 加 入 了 随机 性 因素 口 ， 


不 同 的 响应 结果 。 因 此 ， 对 于 ChatGPT 类 模型 的 生成 内 容 ， 我 们 还 
数据 格式 与 要 求 进行 二 次 校 验 。 


10-Few-shot， 以 及 20-Few-shot 三 种 形式 ， 即 对 
疏 合 、 测 试 集合 ， 
的 详细 拆 分 逻辑 如 图 4 所 示 。 


全 量 用 户 图 书评 分 数据 集 


菲 应 


15h 这 各 


一 一 一 一 一 10-shot 测试 样本 


”20-shot 测试 样本 


1 

”1-shot Prompt 样 本 | 

上 1 

示 _ ! 
本 一 10-shot Prompt 样 本 Tg 


lhttps://goodreads.com/ 


图 书评 分 偏好 推荐 场景 下 的 表现 差异 ， 我 们 选取 了 个 
推荐 算法 模型 ， Matrix Factorization 模型 (FunkSVDJ)P1 、KNN(means) 模型 PC ， 以 及 


训练 数据 集 中 入 


> | 练 数据 集 i 


4 数据 集 评估 方案 拆 分 


重读 书 )， 该 网 站 是 全 
用 户 的 图 书评 分 数据 ， 核 心 字 
辐 书 标签 等 。 为 了 有 效 的 对 比 模型 在 不 同 提示 程度 样本 | 
应 分 别 给 模型 提示 该 
以 及 prompt 集合 ， 要 求 模型 对 剩余 
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Matrix Factorization 模型 FunkSVD) 中 是 一 种 针对 传统 SVD 模型 在 大 规模 数据 场景 下 面临 的 计算 效率 和 稀 
琉 性 难点 所 提出 的 改进 模型 。 该 模型 能 够 将 用 户 和 图 书 的 评分 兴趣 网 络 分 解 为 用 户 抢 阵 和 图 书 矩 阵 ， 即 将 用 户 和 
图 书 的 关联 特征 都 映射 到 一 个 k 维度 空间 中 ， 并 基于 映射 的 矩阵 表征 用 户 的 兴趣 偏好 。 
KNN(means) 模型 号 则 是 通过 考虑 用 户 评分 均值 对 于 其 偏好 的 影响 来 改进 基础 KNN 模型 的 推荐 策略 。 通 过 
这 种 建 模 形式 ， 能 够 保证 预 估 得 到 的 用 户 评分 偏好 会 更 加 关注 用 户 自身 的 评分 分 布 ， 从 而 贴 合 现实 应 用 场景 。 
SlopeOne”1 模 型 则 是 一 种 非常 经 典 且 简洁 的 协同 过 滤 推荐 算法 ， 该 模型 计算 效率 高 ， 且 易于 对 用 户 的 潜在 相 
似 兴 趣 偏 好 进行 建 模 。 但 由 于 模型 建 模 十 分 依赖 用 户 自 身 行为 的 丰富 程度 ， 当 训练 集中 用 户 行为 较 少 (如 提示 样 
本 不 够 的 情况 下 ) 时 ， 其 表现 效果 通常 不 佳 。 
4.3 ”评估 指标 
基于 第 3.2 小 节 可 以 看 到 : 用 户 图 书评 分 偏好 推荐 问题 既 可 以 被 看 成 是 一 个 回归 问题 ， 也 可 以 看 成 是 一 个 排序 
问题 。 因 此 ， 为 了 验证 基于 模型 在 不 同 测试 样本 上 的 性 能 表现 ， 我 们 将 同时 围绕 回归 以 及 排序 模型 的 以 下 指标 对 
模型 效果 进行 评估 : 

指标 一 : 平均 绝对 误差 (MAE，Mean Absolute Error)， 考 虑 不 同 模型 对 于 用 户 评分 偏好 预 估 结果 的 绝对 偏差 ， 
关注 真实 值 和 预测 值 绝对 误差 的 平均 值 。 计 算 方式 如 下 ， 


dt 
| 


1 nn 
MAE = 二 ; 一世 
元 之 i| 


关注 预 


测 
WR 


指标 二 : 平均 绝对 百分比 误差 (MAPE，Mean Absolute Percentage Error)， 通 过 量 纲 缩放 的 方式 ， 忠 
估 误 差 相 对 每 个 样本 真实 值 的 百分比 偏差 情况 。 计 算 方 式 如 下 ， 


T 


1 
MAPE= = Dy — |/ ly 
= 


指标 三 : 均 方 根 误 差 (RMSE，Root Mean Square Error)， 与 MAE 的 关注 点 有 所 差异 的 是 ，RMSE 更 加 关注 不 
同 大 小 误差 相对 权重 对 模型 带 来 的 影响 。 其 计算 方式 如 下 ， 


1 
RMSE= |= > (太一 区 


指标 四 : 归 一 化 折 损 累计 增益 (NDCG，Normalized Discounted Cumulative Gain)P4 ， 该 指标 主要 用 以 观测 在 
排序 结果 中 相对 位 置 的 差异 性 好 坏 。 在 本 文中 ， 我 们 将 分 别 考虑 NDCG@{5,10,15,20} 位 置 之 前 的 表现 结果 。 
4.4 结果 分 析 与 讨论 
本 小 节 将 对 CUBR 模型 以 及 对 照 模型 在 不 同 任务 上 的 表现 结果 进行 分 析 ， 核 心 回答 两 个 问题 ， 问 题 (1): 
CUBR 模型 能 否 在 用 户 图 书评 分 偏好 推荐 场景 取得 效果 ? 与 其 他 推荐 模型 相 比 效果 怎么 样 ? 问题 (2): 提示 样本 
的 增加 ， 能 否 提 高 CUBR 模型 的 推荐 能 力 ? 与 对 比 模型 相 比 是 否 有 明显 变化 ? 


表 1 用 户 评分 偏好 预 估 模型 对 比 效果 


评估 指标 
NDCG@5 NDCG@10 NDCGQ@I1I5 NDCG@20 MAE MAPE RMSE 


建 模 方式 对比 模型 


MF (FunkSVDJ)DPC3 0.8764 0.8934 0.9186 0.9578 0.7657 0.2599 0.9566 
LFowshot KN™N (means) 0 0.8427 0.8679 0.8997 0.9465 0.8655 0.2830 1.1536 
Se SlopeOne®] 0.8298 0.8577 0.8919 0.9421 0.8438 0.2788 1.1177 
CUBR 0.8508 0.8740 0.9026 0.9496 1.0756 0.2977 1.3421 
MF (FunkSVDD)D3 0.8753 0.8925 0.9180 0.9575 0.7333 0.2490 0.9179 
10-Few-shot KNN (means) 0 0.8802 0.8966 0.9210 0.9592 0.7081 0.2367 0.9124 
SlopeOne®] 0.8635 0.8854 0.9124 0.9536 0.7410 0.2423 ”0.9650 
CUBR 0.8685 0.8839 0.9096 0.9541 0.9159 0.2634 1.1849 
MF (FunkSVDD)D3 0.8759 0.8931 0.9184 0.9577 0.7108 0.2413 0.8928 
20.Fewshot KNN (means)0 0.8824 0.8985 0.9223 0.9599 0.6769 0.2265 0.8792 
SlopeOne®] 0.8718 0.8909 0.9166 0.9564 0.7000 ”0.2331 ”0.9051 
CUBR 0.8742 0.8896 0.9127 0.9565 0.8425 0.2485 1.1161 

如 表 1 所 示 ， 为 CUBR 模型 以 及 对 照 模型 在 1-Few-shot,10-Few-shot 和 20-Few-shot 三 个 子 任务 上 的 测试 结果 ， 


其 中 灰色 背景 的 数字 为 该 子 任务 下 的 最 优 模 型 ， 下 划 线 数字 则 对 应 次 优 模型 。 
先 ， 从 整体 上 看 : MF (FunkSVD ) 模型 能 够 在 不 同 子 任务 上 都 取得 不 错 的 效果 ， 特 别 是 在 1-Shot 的 场景 下 
取得 了 最 优 。 其 核心 原因 在 于 : 基于 FunkSVD 的 推荐 策略 是 通过 矩阵 分 解 的 方式 ， 对 用 户 -图 书 的 评分 交互 矩阵 
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进行 建 模 ， 这 一 建 模 方式 的 优化 目标 是 让 用 户 评分 与 和 


j 户 


fF 本 提示 数量 的 增加 ， 


会 参照 提供 的 用 户 针对 不 同 书籍 的 历史 打分 结果 ， 


恰当 
为 


子 任务 上 ，CUBR 的 MAE、 


最 后 ， 从 不 同类 型 的 对 照 指标 上 看 : 在 参照 村 
(NDCG) 上 的 效果 较 好 ， 但 在 分 值 预 
单个 用 户 提示 样本 的 过 多 增加 《〈 如 从 10-Few-shot 增加 
括 CUBR 在 内 的 模型 有 类 似 从 1-Few-shot 到 10-Few-shot 的 效果 增长 ， 但 对 本 
户 的 绝对 分 值 偏好 ， 可 
如 果 场 景 仅 关注 相对 排序 能 力 ， 则 基于 少数 样本 进行 建 模 即 可 满足 要 求 ， 可 以 进 


对 于 


居 此 
果 。 


5 


本 文 提出 了 一 种 基于 ChatGPT 类 大 语言 技术 的 用 户 图 书评 分 偏好 预 洲 
入 图 情 领 域 的 经 典 任务 并 落地 实践 。 在 用 户 图 书评 分 偏好 预测 牺 
和 20-Few-shot 三 个 不 同样 本 提示 程度 的 子 任务 上 
微调 的 情况 下 ， 能 够 取得 不 错 的 推荐 效果 ， 且 通过 增加 提示 相 


术 引 


任何 
们 将 


样本 中 参照 该 知识 信息 进行 综合 评估 。 如 图 5 所 示 ， 


E 阵 乘积 得 到 的 训 


为 代表 的 聚 类 式 模 型 则 j 


。 但 同上 


] 户 的 历史 打分 
以 此 建 模 用 户 
为 CUBR 外 


显 


效果 
行 参照 。 例 如 ，CUBR 模型 在 打分 的 过 程 中 ， 
的 兴趣 偏好 的 相关 背景 知识 ， 并 在 新 的 待 预测 的 
的 打分 决策 过 程 。 通 过 该 样 例 可 以 看 到 ， 基 于 


分 残 差 尽 可 能 
供 的 参照 评分 信息 有 限 的 情况 下 〈 如 1-Few-shot) FunkSVD 在 RMSE 等 指标 上 也 能 取得 不 错 的 效果 。 但 随 着 单个 
有 效 提 示 样 例 〈 特 征 ) 的 增多 ， 以 KNN (means) 
KNN (means) 会 依赖 于 待 预测 用 户 的 历史 评分 习惯 建 模 来 生成 最 终 的 预 估 结果 ， 使 得 随 着 提示 样 例 的 增多 ， 殿 
预 估 的 准确 性 也 逐步 增加 。 值 得 注意 的 是 : CUBR 模型 在 单 样本 的 场景 下 ， 
荐 结果 ， 说 明 CUBR 在 小 样本 推荐 场景 下 的 具有 较 好 的 泛 化 能 
模 上 ， 直 接应 用 通用 LLM 构建 的 CUBR 模型 相 比 经 典 
其 次 ， 具 体 到 不 同 提示 程度 的 子 任务 上 看 : FunkSVD 模型 的 NN 
1-few-shot、10-few-shot 和 20-few-shot 的 子 任务 上 的 其 NDCG 结果 表现 基本 一 致 ， 但 其 余 对 照 模 型 ， 如 KNN 
(means)、SlopeOne 和 CUBR 随 着 待 预测 柱 
后 续 模 型 在 结果 预测 的 过 程 中 ， 会 对 待 预测 样本 


开始 发 挥 出 优势 ， 在 预测 的 过 程 中 ， 
基于 NDCG 指标 上 也 取得 了 次 优 的 推 


人 对 也 看 到 : 在 用 户 维度 的 个 性 化 理解 与 建 
推荐 模型 的 预测 效果 还 有 一 定 差距 。 


站 标 都 发 生 了 较 大 的 变化 。 核 心 原因 在 于 


的 小 ， 因 此 在 竺 预测 用 户 提 


DCG 指标 对 于 提示 样本 的 数量 并 不 敏感 ， 在 


的 样 例 提示 ，LLM 模型 通常 能 够 学 习 到 对 应 
In-context Learning)01l ， 也 是 大 语言 模型 重要 


的 语 境 知识 并 在 预测 场景 进行 应 用 ， 
的 基础 能 力 之 一 。 通 过 增加 提示 样本 参照 之 后 ， 在 20-Few-shot 


假设 你 是 一 个 书籍 推荐 专家 ， 如 果 用 户 A 对 以 下 书籍 的 评分 如 下 : 


(1) 天 龙 八 部 5.0 分 
(2) 时 间 简 史 1.0 分 


假设 要 将 下 列 书籍 推荐 给 用 户 A， 该 用 户 对 他 们 的 偏好 如 何 ， 请 给 


出 1.0-5.0 之 间 的 分 值 ; 
(1) 物理 奇谈 
(2) 射 雕 英雄 传 


， 可 以 推测 该 用 


户 对 古装 武侠 小 说 比 科 普 类 书籍 更 感 兴趣 ， 因 此 可 以 给 出 以 下 推 


荐 评分 : 


(1) 物理 奇谈 : 2.0 分 ， 该 书 属于 科普 类 书籍 ， 


(2) 射 雕 英雄 传 : 4.5 分 ， 该 书 是 一 本 经 典 的 古装 武侠 小 说 ， 
， 因 此 推荐 评分 较 高 。 


5 基于 小 样本 提示 的 用 户 评分 偏好 预 估 样 例 


LU 


， 如 果 应 用 场景 更 加 看 中 每 个 待 推荐 月 


以 通过 增加 待 预测 


该 能 力 又 称 为 语 境 学 习 能 


MAPE 和 RMSE 指标 都 有 显著 改善 ， 误 差分 别 降低 : 21.67%、16.53% 和 16.84% 。 


EFE 本 较 少 的 情况 下 (如 1-Few-shot)，CUBR 模型 虽然 在 排序 能 力 
目的 误差 上 度量 上 (MAE/MAPE/RMSE)， 相 比 对 照 模型 均 无 优势 。 此 外 ， 
到 20-Few-shot)， 从 NDCG 指标 上 看 ， 并 不 会 引起 包 


误差 类 指标 而 言 ， 其 涨幅 依然 可 观 。 


总 结 与 未 来 工作 


持续 围绕 以 下 方面 进行 研究 : 


Prompt 集合 。 在 后 续 研 究 中 ， 如 何 融合 来 自 多 源 


研究 点 二 : 面向 任务 指令 微调 的 建 模 研究 。 当 前 CUBR 


与 应 


步 增加 LLM 在 特定 任务 上 的 表现 效果 串 。 因 此 ， 在 未 来 的 


业务 
现 ， 


E 务 
进行 了 测试 。 实 验 结果 表明 : CU 


用 户 提示 样本 的 方式 提升 效 


步 节省 推理 资源 。 


I 模型 《CUBR )， 该 模型 首次 将 LLM 技 
Pp， 我 们 分 别 在 1-Few-shot、10-Few-shot 
JBR 在 提示 样本 较 少 且 未 进行 


本 的 数量 后 ， 其 预测 结果 提升 明显 。 未 来 ， 我 


研究 点 一 : 融合 多 源 数据 的 Prompt 构建 研究 。 在 当前 的 探索 中 ， 我 们 仅 用 到 了 用 户 的 评分 交互 数据 用 以 构建 


LLM 可 以 理解 的 自然 语言 编码 ， 从 而 充分 利 


用 ， 这 种 形式 通常 考验 的 是 LLM 的 泛 化 能 


也 非常 值得 探讨 。 


的 用 户 属 性 与 特征 ， 
此 构建 统一 的 推荐 系统 ， 值 得 深入 的 探索 。 基 本 上 思路 是 : 


如 何 更 好 


， 但 已 有 本 


用 各 类 语 境 信息 ， 


进 


的 建 模 思路 是 直接 应 


甚至 跨 模 态 数据 ， 并 在 LLM 中 进行 表达 ， 
的 把 来 自 多 源 异 构 的 特征 数据 ， 一 致 的 表 
步 提高 模型 的 预测 效果 。 


已 训练 完成 的 LLM 进行 推荐 
f 究 表明 : 通过 针对 性 的 构建 指令 训练 集 ， 能 够 进 一 
究 中 ， 如 何 考 虑 基于 图 情 领 域 的 专 有 任务 以 及 特殊 
场景 ， 构 建 高 效 的 微调 指令 集 ， 并 将 预测 过 程 与 训练 过 程 联合 起 来 ， 最 终 提 高 LLM 模型 在 推荐 系统 中 的 表 


~、 
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